智能论文笔记

Delving into Semantic Scale Imbalance

Yanbiao Ma , Licheng Jiao , Fang Liu , Yuxin Li , Shuyuan Yang , Xu Liu

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-30

Model bias triggered by long-tailed data has been widely studied. However, measure based on the number of samples cannot explicate three phenomena simultaneously: (1) Given enough data, the classification performance gain is marginal with additional samples. (2) Classification performance decays precipitously as the number of training samples decreases when there is insufficient data. (3) Model trained on sample-balanced datasets still has different biases for different classes. In this work, we define and quantify the semantic scale of classes, which is used to measure the feature diversity of classes. It is exciting to find experimentally that there is a marginal effect of semantic scale, which perfectly describes the first two phenomena. Further, the quantitative measurement of semantic scale imbalance is proposed, which can accurately reflect model bias on multiple datasets, even on sample-balanced data, revealing a novel perspective for the study of class imbalance. Due to the prevalence of semantic scale imbalance, we propose semantic-scale-balanced learning, including a general loss improvement scheme and a dynamic re-weighting training framework that overcomes the challenge of calculating semantic scales in real-time during iterations. Comprehensive experiments show that dynamic semantic-scale-balanced learning consistently enables the model to perform superiorly on large-scale long-tailed and non-long-tailed natural and medical datasets, which is a good starting point for mitigating the prevalent but unnoticed model bias.

translated by 谷歌翻译

OL-DN: Online learning based dual-domain network for HEVC intra frame quality enhancement

Renwei Yang , Shuyuan Zhu , Xiaozhen Zheng , Bing Zeng

分类：计算机视觉

2022-08-09

基于卷积神经网络（CNN）的方法提供了有效的解决方案，以增强压缩图像和视频的质量。但是，这些方法忽略了使用原始数据增强质量的方法。在本文中，我们通过提出一种基于在线学习的方法来采用HEVC内编码图像的质量增强质量增强图。当需要增强质量时，我们在线训练我们在编码器端提出的模型，然后使用参数来更新解码器端的模型。该方法不仅可以改善模型性能，而且还可以使一个模型可用于多个编码方案。此外，离散余弦变换（DCT）系数中的量化误差是各种HEVC压缩伪像的根本原因。因此，我们结合了频域先验以协助图像重建。我们设计了基于DCT的卷积层，以生成适合CNN学习的DCT系数。实验结果表明，与最先进的方法相比，我们提出的基于在线学习的双域网络（OL-DN）取得了出色的性能。

translated by 谷歌翻译

PC-GANs: Progressive Compensation Generative Adversarial Networks for Pan-sharpening

Yinghui Xing , Shuyuan Yang , Song Wang , Yan Zhang , Yanning Zhang

分类：计算机视觉

2022-07-29

多光谱和全型图像的融合始终被称为pansharpening。大多数可用的基于深度学习的pan-sharpening方法通过一步方案增强了多光谱图像，这在很大程度上取决于网络的重建能力。但是，遥感图像总是具有很大的变化，因此，这些一步方法容易受到误差积累的影响，因此无法保留空间细节以及光谱信息。在本文中，我们提出了一个新型的两步模型，用于泛叠式模型，该模型通过空间和光谱信息的进行性补偿来锐化MS图像。首先，深层多尺度引导的生成对抗网络用于初步增强MS图像的空间分辨率。从粗糙域中的预交换MS图像开始，我们的方法随后逐步完善了具有反向体系结构的几个生成对抗网络（GAN）的空间和光谱残差。整个模型由三重gan组成，基于特定的架构，关节补偿损失函数旨在使三重甘族能够同时训练。此外，本文提出的空间谱系残留补偿结构可以扩展到其他泛伴式方法，以进一步增强其融合结果。在不同的数据集上进行了广泛的实验，结果证明了我们提出的方法的有效性和效率。

translated by 谷歌翻译

Luminance-Guided Chrominance Image Enhancement for HEVC Intra Coding

Hewei Liu , Renwei Yang , Shuyuan Zhu , Xing Wen , Bing Zeng

分类：计算机视觉

2022-06-11

在本文中，我们提出了用于HEVC内部编码的亮度引导的色彩图像增强卷积神经网络。具体而言，我们首先开发一个封闭式的递归不对称卷积块，以恢复每个降解的镀铬图像，从而生成中间输出。然后，在亮度图像的引导下，该中间输出的质量进一步改善，最终产生了高质量的色彩图像。当我们提出的方法在用HEVC内部编码的颜色图像压缩中采用时，它分别获得了U和V图像的HEVC比HEVC的28.96％和16.74％的BD速率增益，因此，这表明了其优越性。

translated by 谷歌翻译

FL-Market: Trading Private Models in Federated Learning

Shuyuan Zheng , Yang Cao , Masatoshi Yoshikawa , Huizhong Li , Qiang Yan

分类：机器学习

2021-06-08

联邦学习（FL）是一个新兴机器学习范式，数据所有者可以在不共享其原始数据的情况下协作培训模型。 FL中的两个基本研究问题是激励机制和隐私保护。前者侧重于如何激励数据所有者参加FL。后者研究如何保护数据所有者的隐私，同时保持训练型模型的高效用。但是，FL中的激励机制和隐私保护已被分开研究，并且没有工作同时解决这两个问题。在这项工作中，我们通过提供适当的付款和隐私保护来解决飞行市场的两个问题，这会激励数据所有者的参与。 FL-Market使数据所有者能够根据本地差异隐私（LDP）量化的隐私损失来获得赔偿。我们的识别是，通过满足数据所有者的个性化隐私偏好并提供适当的付款，我们可以（1）激励隐私风险数据所有者设置更大的隐私参数（即，具有较少噪声的渐变）和（2）提供首选隐私保护对于隐私风险厌恶数据所有者。为实现这一目标，我们设计了一个基于LDP的FL框架，具有深度学习的拍卖机制，可以使用较少的噪音和最佳聚合机制激励交易私人模型，并将本地梯度聚合成准确的全局梯度。我们的实验验证了拟议的框架和机制的有效性。

translated by 谷歌翻译

Decision-making and control with metasurface-based diffractive neural networks

Jumin Qiu , Tianbao Yu , Lujun Huang , Andrey Miroshnichenko , Shuyuan Xiao

分类：机器学习

2022-12-21

The ultimate goal of artificial intelligence is to mimic the human brain to perform decision-making and control directly from high-dimensional sensory input. All-optical diffractive neural networks provide a promising solution for realizing artificial intelligence with high-speed and low-power consumption. To date, most of the reported diffractive neural networks focus on single or multiple tasks that do not involve interaction with the environment, such as object recognition and image classification, while the networks that can perform decision-making and control, to our knowledge, have not been developed yet. Here, we propose to use deep reinforcement learning to realize diffractive neural networks that enable imitating the human-level capability of decision-making and control. Such networks allow for finding optimal control policies through interaction with the environment and can be readily realized with the dielectric metasurfaces. The superior performances of these networks are verified by engaging three types of classic games, Tic-Tac-Toe, Super Mario Bros., and Car Racing, and achieving the same or even higher levels comparable to human players. Our work represents a solid step of advancement in diffractive neural networks, which promises a fundamental shift from the target-driven control of a pre-designed state for simple recognition or classification tasks to the high-level sensory capability of artificial intelligence. It may find exciting applications in autonomous driving, intelligent robots, and intelligent manufacturing.

translated by 谷歌翻译

Dynamic Causal Collaborative Filtering

Shuyuan Xu , Juntao Tan , Zuohui Fu , Jianchao Ji , Shelby Heinecke , Yongfeng Zhang

分类：人工智能 | 机器学习

2022-08-23

因果图作为因果建模的有效和强大的工具，通常被假定为有向的无环图（DAG）。但是，推荐系统通常涉及反馈循环，该反馈循环定义为推荐项目的循环过程，将用户反馈纳入模型更新以及重复该过程。结果，重要的是将循环纳入因果图中，以准确地对推荐系统进行动态和迭代数据生成过程。但是，反馈回路并不总是有益的，因为随着时间的流逝，它们可能会鼓励越来越狭窄的内容暴露，如果无人看管的话，可能会导致回声室。结果，重要的是要了解何时会导致Echo Chambers以及如何减轻回声室而不会损害建议性能。在本文中，我们设计了一个带有循环的因果图，以描述推荐的动态过程。然后，我们采取马尔可夫工艺来分析回声室的数学特性，例如导致回声腔的条件。受理论分析的启发，我们提出了一个动态的因果协作过滤（$ \ partial $ ccf）模型，该模型估算了用户基于后门调整的项目的干预后偏好，并通过反事实推理减轻了Echo Echo Chamber。在现实世界数据集上进行了多个实验，结果表明，我们的框架可以比其他最先进的框架更好地减轻回声室，同时通过基本建议模型实现可比的建议性能。

translated by 谷歌翻译

HTML版本

N-Grammer: Augmenting Transformers with latent n-grams

Aurko Roy , Rohan Anil , Guangda Lai , Benjamin Lee , Jeffrey Zhao , Shuyuan Zhang , Shibo Wang , Ye Zhang , Shen Wu , Rigel Swavely

分类：自然语言处理 | 机器学习

2022-07-13

变压器模型最近已成为自然语言处理中的基础模型之一，作为副产品，最近对扩展这些模型具有重大的兴趣和投资。但是，这些大型变压器语言模型的培训和推理成本令人难以置信，因此需要更多的研究来识别更有效的变体。在这项工作中，我们通过用统计语言建模中的文献启发的变压器体系结构提出了一个简单而有效的修改，该架构是通过通过文本序列的离散潜在表示构建的n-grams来增强模型的。我们评估了我们的模型，关于C4数据集的语言建模的N-Strammer以及Superglue数据集的文本分类，并发现它的表现优于诸如变压器和底漆等几个强基线。我们为JAX中的可重复性目的开放源模型。

translated by 谷歌翻译

Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction

Zhenguang Liu , Shuang Wu , Shuyuan Jin , Shouling Ji , Qi Liu , Shijian Lu , Li Cheng

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-30

预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是，我们代表骨骼姿势的事实是对预测结果的关键影响。然而，没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究，重点关注它们对运动预测任务的影响。此外，最近的方法在现成的RNN单位上构建，用于运动预测。这些方法在捕获长期依赖性方面，顺序地并固有地具有困难。在本文中，我们提出了一种新颖的RNN架构，用于运动预测的AHMR（殷勤分层运动复发网络），其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失，其具有比广泛采用的L2损耗更多的几何意义。有趣的是，我们将我们的方法应用于一系列铰接物对象，包括人类，鱼类和鼠标。经验结果表明，我们的方法在短期预测中占据了最先进的方法，实现了大量增强的长期预测熟练程度，例如在50秒的预测中保留自然人样的运动。我们的代码已发布。

translated by 谷歌翻译

TA2N: Two-Stage Action Alignment Network for Few-shot Action Recognition

Shuyuan Li , Huabin Liu , Rui Qian , Yuxi Li , John See , Mengjuan Fei , Xiaoyuan Yu , Weiyao Lin

分类：计算机视觉

2021-07-10

很少有动作识别旨在仅使用几个样本（支持）识别新颖的动作类（查询）。当前的大多数方法遵循公制学习范式，该范式学会比较视频之间的相似性。最近，已经观察到，直接测量这种相似性并不理想，因为不同的动作实例可能显示出独特的时间分布，从而导致查询和支持视频中严重的未对准问题。在本文中，我们从两个不同的方面释放了这个问题 - 行动持续时间的错位和动作演化错位。我们通过两阶段的动作对准网络（TA2N）顺序解决它们。第一阶段通过学习暂时的仿射变换来定位动作，该变换扭曲了每个视频功能的动作持续时间，同时否定了动作 - 欧元的功能（例如背景）。接下来，第二阶段协调查询功能通过执行时间重排和空间抵消预测来匹配支撑的时空动作演变。基准数据集上的广泛实验显示了该方法在实现最新性能方面的潜力，以获得几次动作识别。

translated by 谷歌翻译